Вибірковий розподіл
Вибірковий розподіл або розподіл скінченних вибірок у статистиці — це розподіл імовірності заданої статистики, що базується на випадковій вибірці. Вибіркові розподіли важливі у статистиці, бо вони забезпечують значне спрощення на шляху до статистичного висновування. А саме, вони дозволяють аналітичним міркуванням ґрунтуватися на вибірковому розподілі статистики, а не на спільному розподілі ймовірності всіх окремих значень вибірки.
Вибірковий розподіл статистики — це розподіл цієї статистики, що розглядається як випадкова змінна, що виводиться з випадкової вибірки розміру . Його можна розглядати як розподіл статистики для всіх можливих вибірок з цієї ж генеральної сукупності, що мають заданий розмір вибірки. Вибірковий розподіл залежить від розподілу, що лежить в основі генеральної сукупності, статистики, що розглядається, залученої процедури відбору, та використовуваного розміру вибірки. Часто існує значний інтерес, чи може вибірковий розподіл бути наближено асимптотичним розподілом[en], що відповідає граничному випадку або коли прямує до нескінченності кількість випадкових вибірок скінченного розміру, що відбираються з нескінченної генеральної сукупності та використовуються для отримання розподілу, або коли з цієї ж генеральної сукупності береться лише одна «вибірка» з розміром, що дорівнює нескінченності.
Наприклад, розгляньмо нормальну генеральну сукупність із середнім значенням та дисперсією . Припустімо, що ми багаторазово беремо вибірки заданого розміру з цієї сукупності та обчислюємо середнє арифметичне для кожної з них — цю статистика називають вибірковим середнім. Розподіл цих середніх, або усереднень, називають «вибірковим розподілом вибіркового середнього». Цей розподіл є нормальним (n є розміром вибірки), оскільки генеральна сукупність, що лежить в його основі, є нормальною, хоча вибіркові розподіли можуть також часто бути близькими до нормального навіть коли розподіл генеральної сукупності таким не є (див. центральна гранична теорема). Альтернативою вибірковому середньому є вибіркова медіана. При обчисленні з тієї ж самої генеральної сукупності вона має інший вибірковий розподіл, ніж у вибіркового середнього, і зазвичай не є нормальною (але може бути близькою до цього для великих розмірів вибірки).
Середнє значення вибірки з генеральної сукупності, що має нормальний розподіл, є прикладом простої статистики, що береться з однієї з найпростіших статистичних генеральних сукупностей. Формули для інших статистик та інших генеральних сукупностей є складнішими, і часто вони не існують у замкненому вигляді. В таких випадках вибіркові розподіли можна наближувати за допомогою симуляцій Монте-Карло,[1] статистичного бутстрепу або теорії асимптотичного розподілу[en].
Стандартне відхилення вибіркового розподілу статистики називають стандартною похибкою цієї величини. Для випадку, коли статистика це середнє значення вибірки і вибірки некорельовані, стандартна похибка це
де це стандартна похибка розподілу цієї величини генеральної сукупності, а це розмір вибірки (кількість елементів у вибірці).
Важливим наслідком цієї формули є те, що для досягнення половини (1/2) похибки вимірювання розмір вибірки має бути збільшено вчетверо (помножено на 4). При проєктуванні статистичних досліджень, у яких витрати є чинником, це може відігравати свою роль у розумінні компромісу між витратами та вигодами.
Якщо статистика це сума вибірки, і вибірки некорельовані, стандартна похибка це
де, знов, це стандартна похибка розподілу цієї величини генеральної сукупності, а це розмір вибірки (кількість елементів у вибірці).
Генеральна сукупність | Статистика | Вибірковий розподіл |
---|---|---|
Нормальна: | Вибіркове середнє з вибірок розміру n | або (якщо дисперсія не відома): , де є стандартним відхиленням вибірки, а є t-розподілом Стьюдента. |
Бернуллі: | Проста пропорція «успішних проб» | |
Дві незалежні нормальні сукупності: and |
Різниця між вибірковими середніми, | |
Абсолютно безперервний розподіл F із густиною ƒ | Медіана з вибірки розміром n = 2k − 1, де вибірку впорядковано від до | |
Довільний розподіл із функцією розподілу F | Максимум з випадкової вибірки розміру n |
У теорії статистичного висновування ідея достатньої статистики пропонує основу для такого вибору статистики (як функції від точок даних вибірки), що жодна інформація не втрачається при заміні повного ймовірнісного опису вибірки вибірковим розподілом обраної статистики.
У частотному висновуванні, наприклад, у створенні перевірки статистичних гіпотез або довірчих інтервалів доступність вибіркового розподілу статистики (або його наближення у вигляді асимптотичного розподілу[en]) може давати готове формулювання таких процедур, тоді як створення процедур починаючи зі спільного розподілу вибірки було би не таким очевидним.
У баєсовому висновуванні, коли доступний вибірковий розподіл статистики, можна розглядати заміну кінцевого виходу таких процедур, зокрема умовних розподілів будь-яких невідомих величин при заданих даних вибірки, умовними розподілами будь-яких невідомих величин при заданих вибіркових статистиках. Такі процедури залучатимуть вибірковий розподіл цих статистик. Результати будуть ідентичними за умови, що обрані статистики будуть спільно достатніми.
- ↑ Mooney, 1999, с. 2.
- Mooney, Christopher Z. (1999). Monte Carlo simulation. Thousand Oaks, Calif.: Sage. ISBN 9780803959439. Архів оригіналу за 25 жовтня 2015. Процитовано 5 жовтня 2015. (англ.)
- Merberg, A. and S.J. Miller (2008). "The Sample Distribution of the Median". Course Notes for Math 162: Mathematical Statistics, on the web at http://web.williams.edu/Mathematics/sjmiller/public_html/BrownClasses/162/Handouts/MedianThm04.pdf [Архівовано 18 лютого 2015 у Wayback Machine.], pgs 1–9. (англ.)
- Генерація вибіркових розподілів в Excel [Архівовано 17 травня 2008 у Wayback Machine.] (англ.)
- Демонстрація Mathematica, що показує вибірковий розподіл різних статистик (наприклад, Σx²) для нормальної генеральної вибірки [Архівовано 6 жовтня 2015 у Wayback Machine.] (англ.)